使用注意机制的深度卷积神经网络(CNN)在动态场景中取得了巨大的成功。在大多数这些网络中,只能通过注意图精炼的功能传递到下一层,并且不同层的注意力图彼此分开,这并不能充分利用来自CNN中不同层的注意信息。为了解决这个问题,我们引入了一种新的连续跨层注意传播(CCLAT)机制,该机制可以利用所有卷积层的分层注意信息。基于CCLAT机制,我们使用非常简单的注意模块来构建一个新型残留的密集注意融合块(RDAFB)。在RDAFB中,从上述RDAFB的输出中推断出的注意图和每一层直接连接到后续的映射,从而导致CRLAT机制。以RDAFB为基础,我们为动态场景Deblurring设计了一个名为RDAFNET的有效体系结构。基准数据集上的实验表明,所提出的模型的表现优于最先进的脱毛方法,并证明了CCLAT机制的有效性。源代码可在以下网址提供:https://github.com/xjmz6/rdafnet。
translated by 谷歌翻译
部件组件是机器人中的典型但具有挑战性的任务,机器人将一组各个部件组装成完整的形状。在本文中,我们开发了用于家具组件的机器人组装仿真环境。我们将零件装配任务制定为混凝土加固学习问题,并提出了一种机器人的管道,以学习组装多种椅子。实验表明,当使用看不见的椅子进行测试时,我们的方法在以上对象的环境下实现了74.5%的成功率,并在完整环境下实现了50.0%。我们采用RRT-CONNECT算法作为基线,在计算时间明显更长的时间后,只能实现18.8%的成功率。我们的项目网页提供了补充材料和视频。
translated by 谷歌翻译
增强了现实世界情景的稳健性已经被证明非常具有挑战性。一个原因是现有的鲁棒性基准是有限的,因为它们依赖于合成数据,或者它们只是将稳健性降低为数据集之间的概括,因此忽略各个滋扰因素的影响。在这项工作中,我们介绍了罗宾,是一个基准数据集,用于诊断视觉算法对现实世界中的个人滋扰的鲁棒性。罗宾在Pascal VOC 2012和Imagenet数据集中构建了10个刚性类别,并包括对象的分布示例3D姿势,形状,纹理,背景和天气状况。 Robin是丰富的注释,以实现图像分类,对象检测和3D姿势估计的基准模型。我们为许多流行的基线提供了结果,并进行了几个有趣的观察结果:1。与其他人相比,一些滋扰因素对性能有更强烈的负面影响。此外,对oodnuisance的负面影响取决于下游视觉任务。 2.利用强大数据增强的鲁棒性的目前的方法只有在现实世界的情况下只有边际效应,有时甚至会降低表现。 3.我们在鲁棒性方面,我们不会遵守卷积和变压器架构之间的任何显着差异。我们相信我们的数据集提供了丰富的试验台,以研究视觉算法的稳健性,并有助于大大推动该领域的前瞻性研究。
translated by 谷歌翻译
模型量化已成为加速深度学习推理的不可或缺的技术。虽然研究人员继续推动量化算法的前沿,但是现有量化工作通常是不可否认的和不可推销的。这是因为研究人员不选择一致的训练管道并忽略硬件部署的要求。在这项工作中,我们提出了模型量化基准(MQBench),首次尝试评估,分析和基准模型量化算法的再现性和部署性。我们为实际部署选择多个不同的平台,包括CPU,GPU,ASIC,DSP,并在统一培训管道下评估广泛的最新量化算法。 MQBENCK就像一个连接算法和硬件的桥梁。我们进行全面的分析,并找到相当大的直观或反向直观的见解。通过对齐训练设置,我们发现现有的算法在传统的学术轨道上具有大致相同的性能。虽然用于硬件可部署量化,但有一个巨大的精度差距,仍然不稳定。令人惊讶的是,没有现有的算法在MQBench中赢得每一项挑战,我们希望这项工作能够激发未来的研究方向。
translated by 谷歌翻译
Artificial Intelligence (AI) is having a tremendous impact across most areas of science. Applications of AI in healthcare have the potential to improve our ability to detect, diagnose, prognose, and intervene on human disease. For AI models to be used clinically, they need to be made safe, reproducible and robust, and the underlying software framework must be aware of the particularities (e.g. geometry, physiology, physics) of medical data being processed. This work introduces MONAI, a freely available, community-supported, and consortium-led PyTorch-based framework for deep learning in healthcare. MONAI extends PyTorch to support medical data, with a particular focus on imaging, and provide purpose-specific AI model architectures, transformations and utilities that streamline the development and deployment of medical AI models. MONAI follows best practices for software-development, providing an easy-to-use, robust, well-documented, and well-tested software framework. MONAI preserves the simple, additive, and compositional approach of its underlying PyTorch libraries. MONAI is being used by and receiving contributions from research, clinical and industrial teams from around the world, who are pursuing applications spanning nearly every aspect of healthcare.
translated by 谷歌翻译
安全的基于多方计算的机器学习(称为MPL)已成为利用来自具有隐私保护的多个政党的数据的重要技术。尽管MPL为计算过程提供了严格的安全保证,但MPL训练的模型仍然容易受到仅依赖于访问模型的攻击。差异隐私可以帮助防御此类攻击。但是,差异隐私和安全多方计算协议的巨大沟通开销带来的准确性损失使得平衡隐私,效率和准确性之间的三通权衡是高度挑战的。在本文中,我们有动力通过提出一种解决方案(称为PEA(私有,高效,准确))来解决上述问题,该解决方案由安全的DPSGD协议和两种优化方法组成。首先,我们提出了一个安全的DPSGD协议,以在基于秘密共享的MPL框架中强制执行DPSGD。其次,为了减少因差异隐私噪声和MPL的巨大通信开销而导致的准确性损失,我们提出了MPL训练过程的两种优化方法:(1)与数据无关的功能提取方法,旨在简化受过训练的模型结构体; (2)基于本地数据的全局模型初始化方法,旨在加快模型训练的收敛性。我们在两个开源MPL框架中实施PEA:TF-Conteded和Queqiao。各种数据集的实验结果证明了PEA的效率和有效性。例如。当$ {\ epsilon} $ = 2时,我们可以在LAN设置下的7分钟内训练CIFAR-10的差异私有分类模型,其精度为88%。这一结果大大优于来自CryptGPU的一个SOTA MPL框架:在CIFAR-10上训练非私有性深神经网络模型的成本超过16小时,其精度相同。
translated by 谷歌翻译
几乎所有场景文本发现(检测和识别)方法依赖于昂贵的框注释(例如,文本线框,单词级框和字符级框)。我们首次证明培训场景文本发现模型可以通过每个实例的单点的极低成本注释来实现。我们提出了一种端到端的场景文本发现方法,将场景文本拍摄作为序列预测任务,如语言建模。给予图像作为输入,我们将所需的检测和识别结果作为一系列离散令牌制定,并使用自动回归变压器来预测序列。我们在几个水平,多面向和任意形状的场景文本基准上实现了有希望的结果。最重要的是,我们表明性能对点注释的位置不是很敏感,这意味着它可以比需要精确位置的边界盒更容易地注释并自动生成。我们认为,这种先锋尝试表明了场景文本的重要机会,比以前可能的比例更大的比例更大。
translated by 谷歌翻译
利用6DOF(自由度)对象的姿势信息及其组件对于对象状态检测任务至关重要。我们展示了IKEA对象状态数据集,该数据集包含宜家家具3D模型,装配过程的RGBD视频,家具部件的6dof姿势及其边界盒。建议的数据集将在https://github.com/mxllmx/ikeaObjectstateTateDataSet上使用。
translated by 谷歌翻译
从单个图像重建高保真3D面部纹理是一个具有挑战性的任务,因为缺乏完整的面部信息和3D面和2D图像之间的域间隙。最新作品通过应用基于代或基于重建的方法来解决面部纹理重建问题。尽管各种方法具有自身的优势,但它们不能恢复高保真和可重新可传送的面部纹理,其中术语“重新可调剂”要求面部质地在空间地完成和与环境照明中脱颖而出。在本文中,我们提出了一种新颖的自我监督学习框架,用于从野外的单视图重建高质量的3D面。我们的主要思想是首先利用先前的一代模块来生产先前的Albedo,然后利用细节细化模块来获得详细的Albedo。为了进一步使面部纹理解开照明,我们提出了一种新颖的详细的照明表示,该表现在一起与详细的Albedo一起重建。我们还在反照侧和照明方面设计了几种正规化损失功能,以便于解散这两个因素。最后,由于可怜的渲染技术,我们的神经网络可以以自我监督的方式有效地培训。关于具有挑战性的数据集的广泛实验表明,我们的框架在定性和定量比较方面显着优于最先进的方法。
translated by 谷歌翻译
精确,超声图像序列中的血管结构的实时分割可以有助于测量内腔直径和血管疾病的评估。然而,这仍然是一个具有挑战性的任务,特别是对于难以想象的极小船只。我们建议利用超声波利用富时尚背景,以改善小规模下肢动脉脉管系统的分割。我们描述了在多分析尺度的时间,空间和特征感知的上下文嵌入的有效深度学习方法,同时共同利用来自B模式和彩色多普勒信号的信息。评估专家超声波的健康科目的股骨和胫骨动脉扫描,并与内腔边界的共识专家地面说明相比,我们使用上下文感知模型展示了实时分割,并表明它们显着优于相当的基线方法。
translated by 谷歌翻译